requests+re模块，爬取《和平精英》武器信息

您所在的位置：网站首页 › 吃鸡和平精英图片枪 › requests+re模块，爬取《和平精英》武器信息

requests+re模块，爬取《和平精英》武器信息

2023-09-09 08:23| 来源: 网络整理| 查看: 265

requests+re模块，爬取《和平精英》武器信息 1.分析网页2.获取数据3.分析数据4.下载图片5.格式化输出数据6.主函数

1.分析网页

【1】首先，我们找到《和平精英》的游戏资料https://gp.qq.com/cp/a20190522gamedata/pc_list.shtml，在这里我们发现有游戏中的武器、配件、物资、载具和地图等信息，本文以武器的基本信息为例进行爬取，其他信息方法类似，咱不赘述。游戏资料页面

【2】接下来，我们检查页面，点击Network，选择XHR，然后选择第2条数据。在这里，我们发现网页中的数据都是通过json数据加载来的，而不是静态页面。

【3】我们再来分析json数据，这里可以直接看到json数据的URL，这正是我们想要的东西，同时我们也知道了该URL的Request Method是get方法，通过这些我们便可以获取武器、配件、物资、载具这些数据。请求头的基本信息

【4】但是在爬取的过程中发现，这样并不能爬取成功，于是我们再看Headers这里有没有其他需要的参数来获取json数据。在最下方找到了我们需要的parmas值，这样就可以把这里的参数添加到程序中，从而成功爬取数据。请求头中需要的参数

2.获取数据

直接上代码

def get_html_text(url): """ 获取页面json数据 :param url: :return: """ headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'} parmas = { 'callback': 'dealCallBack', '_': 1566815094736 } try: r = requests.get(url, headers=headers, params=parmas, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding result = r.text result = result.replace('dealCallBack(', '').replace(')', '') # 只留下"dealCallBack(……)"中间……这一部分 result = json.loads(result) return result except: return ''

其中，url = ‘https://gp.qq.com/zlkdatasys/data_zlk_hpjywqzlk.json’。这样我们就得到了该网页的json数据了。

3.分析数据

分析时发现，源网页的json数据列表+字典套的层数比较多，这里使用正则表达式直接分析，找到每一个属性对应的key，然后再分析得到属性值。

def parse_page(ilt, html): """ 使用re模块，利用正则表达式分析json数据，ilt列表中存储需要的数据 :param ilt: :param html: :return: """ try: # 将数据转成字符串 html = str(html) # 找到所有的武器名称 name = [] namelt = re.findall(r"'mc_94': '.*?'", html) for i in range(len(namelt)): name_temp = namelt[i].split(': ')[1].strip("'") if len(name)

【本文地址】

requests+re模块，爬取《和平精英》武器信息

requests+re模块，爬取《和平精英》武器信息

今日新闻

推荐新闻